逻辑斯蒂回归(Logistic Regression Model)

1.逻辑斯蒂分布(Logistic Distribution)

1.1 一维逻辑斯蒂分布的数学定义

两个参数 :
μ:location,控制分布函数的中心位置,或者说是概率密度函数对称轴的位置 
σ:scale,该参数控制着f(x)的宽和高;其值越大,f(x)越矮越胖
注:其实该参数σ与正态分布的σ含义相同,只不过相差了一个系数(π^2)/3

a.分布函数(概率累积函数)

F(x) = 1 / (1 + exp(−(x−μ)/σ))
设: m = exp((x−μ)/σ)
则:F(x) = m / ((1 + exp(−(x−μ)/σ)) * m)
         = m / (m + m * exp(−(x−μ)/σ)) 

解:g = m * exp(−(x−μ)/σ)
      = exp((x−μ)/σ) * exp(−(x−μ)/σ)
      = exp((x−μ)/σ + −(x−μ)/σ)
      = exp(0)
      = 1

所以F(x)也可以表示为:
    F(x) =  exp((x−μ)/σ) / ( exp((x−μ)/σ) + 1)

b.概率密度函数(概率累积函数的导数)

F'(x) = (1 / (1 + exp(−(x−μ)/σ)))'
设:m = 1 + exp(−(x−μ)/σ)
则:F'(x) = (1'm - 1m') / (m^2)
          = (0 - m') / (m^2)
          = -m' / (m^2)

解:m' =(1 + exp(−(x−μ)/σ))'
       = (0 + exp(−(x−μ)/σ)) * (−(x−μ)/σ))'
       = exp(−(x−μ)/σ) * (-1 / σ)

那么F'(x) = -(-1 / σ) * exp(−(x−μ)/σ) / ((1 + exp(−(x−μ)/σ))^2)

参考求导公式:y=u/v  =>  y'=(u'v-uv')/v^2)
              y=a^x  =>  y'=a^xlna
              y=e^x  =>  y'=e^x

1.2 逻辑斯蒂分布的均值与方差

a.均值

E(x) = μ(中心位置)

b.方差

Var(x) = 1/3 *(πσ)^2

1.3 何时需要用到Logistic分布

由于logistic分布的分布函数(S型)的良好的数学性质,使得它的概率密度函数具有对称性,从而,经常使用logistic分布区近似其他具有对称概率密度函数的分布

logistic分布的这种S-shapesd的分布,称为Logistic regression model,其用来对某个输入最可能的输出进行预测

logistic CDF(分布函数、cumulative distribution function)的S-shaped曲线,实际上可以描述了某一个事件发生的可能性

2.二项逻辑斯蒂回归模型及其特点

2.1 二项逻辑斯蒂回归模型

假设我们要解决的问题为一个二分类问题,那么,可以利用逻辑斯蒂分布来对二分类模型建模,即对于一个样本x,它的类别要么为1,要么为0,我们设定它为1的概率为逻辑斯蒂分布中的概率分布形式,那么,它为0的概率也就是1-P(y=0)

这里的“二项”一词,与二项分布的意义相同(一次试验的结果要么为1要么为0),一个样本类别要么为1要么为0

二项逻辑斯蒂回归模型的应用场景

两类分类问题,期Y∈{1,0} 
另:样本x具有n个特征,即x∈Rn

二项逻辑斯蒂回归模型具体形式

P(Y = 1|x) = exp(w⋅x + b) / (1 + exp(w⋅x + b))
P(Y = 0|x) = 1 / (1 + exp(w⋅x + b))

注1:P(Y=1|x) + P(Y=0|x) = 1
注2:上面的二项逻辑斯蒂回归模型其实就是一个二项分布的形式,即一次试验的结果要么为1、要么为0,其中,结果为1的概率利用逻辑斯蒂分布给出。

最终类别的判定

对于给定的样本x,利用二项逻辑斯蒂回归模型计算该样本类别为1和0的概率,然后,将样本x分类到概率较大的那一类

二项逻辑斯蒂回归模型的紧凑形式

对输入向量进行扩充,添加一个1,从而,可以将参数向量w和偏移量b写在一起,仍记为w,此时,逻辑回归模型为: 
P(Y=1|x) = exp(w⋅x) / (1+exp(w⋅x))
P(Y=0|x) = 1 / (1+exp(w⋅x))

注:w⋅x + b = w1x1 + ⋯ + wnxn + b
            = w1x1 + ⋯ + wnxn + w0x0 (记w0=b, x0=1)
            = (w1,⋯,wn,b)T(x1,⋯,xn,1) 
            = w⋅x (w与x从0开始)

2.2 二项逻辑斯蒂回归模型的特点

“几率” 与 对数几率:

某个事件发生的概率为p,那么,该事件的几率为p/(1−p)(发生的概率与不发生的概率之比)
p/(1-p) =  P(Y=1|x) / (1 - P(Y=1|x))
        = (exp(wx)/(1+exp(wx))) / (1/(1+exp(wx)))
        = exp(wx)

则对数几率为
log(p/(1-p)) = log(exp(wx))
             = wx

也就是说,输出Y=1对应的对数几率是由输入x的线性函数表示的模型wx
也就是说:对输入x的线性函数wx进行逻辑斯蒂函数计算,得到该样本属于Y=1的概率

3. 二项逻辑斯蒂回归模型参数的估计

二项逻辑斯蒂回归模型具有一个位置的参数向量w,那么如何能够利用训练数据集求得该参数向量?最直观的方式就是利用极大似然估计:即给定N个样本,最优的参数应该是使得这给定的N个样本的联合概率密度∏Pi(1<=i<=N, w)(即似然函数)取得最大的参数w^*,即